智能论文笔记

A data-driven modular architecture with denoising autoencoders for health indicator construction in a manufacturing process

Emil Blixt Hansen , Helge Langseth , Nadeem Iftikhar , Simon Bøgh

分类：机器学习

2022-08-10

在预测和健康管理（PHM）领域内，可以使用健康指标（HI）来帮助生产，例如安排维护并避免失败。但是，HI通常经过特定的过程设计，通常需要大量的历史数据进行设置。对于中小企业来说，这尤其是一个挑战，这种挑战通常缺乏足够的资源和知识来从PHM中受益。在本文中，我们提出了Modularhi，这是在没有历史数据的系统的HI构建中的模块化方法。使用ModularHi，操作员可以选择哪些传感器输入可用，然后Modularhi将根据在燃烧状态期间收集的数据计算基线模型。然后，该基线模型将用于检测系统是否随着时间的推移开始降解。我们在两个开放数据集，CMAPS和N-CMAPS上测试模块化。以前数据集的结果展示了我们系统检测降解的能力，而后者的结果是在该区域内进行进一步研究的方向。结果表明，我们的新方法能够在没有历史数据的情况下检测系统降解。

translated by 谷歌翻译

PersonaSAGE: A Multi-Persona Graph Neural Network

Gautam Choudhary , Iftikhar Ahamath Burhanuddin , Eunyee Koh , Fan Du , Ryan A. Rossi

分类：机器学习

2022-12-28

Graph Neural Networks (GNNs) have become increasingly important in recent years due to their state-of-the-art performance on many important downstream applications. Existing GNNs have mostly focused on learning a single node representation, despite that a node often exhibits polysemous behavior in different contexts. In this work, we develop a persona-based graph neural network framework called PersonaSAGE that learns multiple persona-based embeddings for each node in the graph. Such disentangled representations are more interpretable and useful than a single embedding. Furthermore, PersonaSAGE learns the appropriate set of persona embeddings for each node in the graph, and every node can have a different number of assigned persona embeddings. The framework is flexible enough and the general design helps in the wide applicability of the learned embeddings to suit the domain. We utilize publicly available benchmark datasets to evaluate our approach and against a variety of baselines. The experiments demonstrate the effectiveness of PersonaSAGE for a variety of important tasks including link prediction where we achieve an average gain of 15% while remaining competitive for node classification. Finally, we also demonstrate the utility of PersonaSAGE with a case study for personalized recommendation of different entity types in a data management platform.

translated by 谷歌翻译

SoK: Explainable Machine Learning for Computer Security Applications

Azqa Nadeem , Daniël Vos , Clinton Cao , Luca Pajola , Simon Dieck , Robert Baumgartner , Sicco Verwer

分类：机器学习

2022-08-22

可解释的人工智能（XAI）是提高机器学习（ML）管道透明度的有前途解决方案。我们将开发和利用XAI方法用于防御和进攻性网络安全任务的研究越来越多（但分散的）缩影。我们确定3个网络安全利益相关者，即模型用户，设计师和对手，将XAI用于ML管道中的5个不同目标，即1）启用XAI的决策支持，2）将XAI应用于安全任务，3）3）通过模型验证通过模型验证xai，4）解释验证和鲁棒性，以及5）对解释的进攻使用。我们进一步分类文献W.R.T.目标安全域。我们对文献的分析表明，许多XAI应用程序的设计都几乎没有了解如何将其集成到分析师工作流程中 - 仅在14％的情况下进行了解释评估的用户研究。文献也很少解开各种利益相关者的角色。特别是，在安全文献中将模型设计师的作用最小化。为此，我们提出了一个说明性用例，突显了模型设计师的作用。我们证明了XAI可以帮助模型验证和可能导致错误结论的案例。系统化和用例使我们能够挑战几个假设，并提出可以帮助塑造网络安全XAI未来的开放问题

translated by 谷歌翻译

Domain Knowledge Driven 3D Dose Prediction Using Moment-Based Loss Function

Gourav Jhanwar , Navdeep Dahiya , Parmida Ghahremani , Masoud Zarepisheh , Saad Nadeem

分类：计算机视觉

2022-07-07

剂量体积直方图（DVH）指标是诊所中广泛接受的评估标准。但是，将这些指标纳入深度学习剂量预测模型，这是由于其非跨性别性和非差异性而具有挑战性的。我们提出了一种基于力矩的新型损失功能，用于预测具有挑战性的常规肺强度调节疗法（IMRT）计划的3D剂量分布。基于力矩的损耗函数是凸面和可区分的，并且可以轻松地将DVH指标合并到没有计算开销的任何深度学习框架中。也可以定制这些矩，以反映3D剂量预测中的临床优先级。例如，使用高阶矩可以在高剂量区域中更好地预测串行结构。我们使用了360的大型数据集（240次培训，50次进行验证，70次进行测试），使用2GY $ \ times $ 30分数的常规肺部患者使用我们机构的临床治疗计划来训练深度学习（DL）模型。我们使用计算机断层扫描（CT），计划目标体积（PTV）和风险风险轮廓（OAR）培训了UNET，例如CNN体系结构，以推断相应的素素3D剂量分布。我们评估了三种不同的损失函数：（1）流行的平均绝对误差（MAE）损失，（2）最近开发的MAE + DVH损失，以及（3）提出的MAE +矩损失。使用不同的DVH指标以及剂量得分和DVH得分比较了预测的质量，该指标最近由AAPM知识的计划大挑战挑战。具有（MAE +力矩）损耗函数的模型通过显着提高DVH得分（11％，p $ <$ 0.01），而具有相似的计算成本，从而超过了MAE损失的模型。它还优于接受（MAE+DVH）训练的模型，它可以显着提高计算成本（48％）和DVH得分（8％，p $ <$ 0.01）。

translated by 谷歌翻译

CLTS-GAN: Color-Lighting-Texture-Specular Reflection Augmentation for Colonoscopy

Shawn Mathew , Saad Nadeem , Arie Kaufman

分类：计算机视觉

2022-06-29

由于颜色，照明，纹理和镜面反射的变化，光学结肠镜检查（OC）视频帧的自动分析（OC）框架（在OC期间有助于内镜医生）具有挑战性。先前的方法要么通过预处理（使管道变得麻烦）删除其中的一些变化，要么添加带注释（但昂贵且耗时）的多种培训数据。我们提出了CLTS-GAN，这是一种新的深度学习模型，可很好地控制OC视频帧的颜色，照明，纹理和镜面反射合成。我们表明，将这些特定于结肠镜检查的增强添加到训练数据中可以改善最新的息肉检测/分割方法，并推动下一代OC模拟器用于培训医学生。CLTS-GAN的代码和预训练模型可在计算内窥镜平台GitHub（https://github.com/nadeemlab/cep）上获得。

translated by 谷歌翻译

CIRDataset: A large-scale Dataset for Clinically-Interpretable lung nodule Radiomics and malignancy prediction

Wookjin Choi , Navdeep Dahiya , Saad Nadeem

分类：计算机视觉

2022-06-29

在肺结节表面上的尖锐/肺泡是肺癌恶性肿瘤的良好预测指标，因此是放射科医生的良好预测指标，作为标准化的肺-RADS临床评分标准的一部分。鉴于放射科医生的结节和2D切片评估的3D几何形状，手动调节/肺泡注释是一项繁琐的任务，因此，迄今为止，尚无公共数据集以探测这些临床报告在SOTA恶性预测中的重要性算法。作为本文的一部分，我们释放了一个大规模临床解释的放射线数据集，即Cirdataset，其中包含来自两个公共数据集的分段肺结节的956个放射学家QA/QC'QA/QC'spiculation/lobulation注释，Lidc-Idri（N = 883）（n = 883）（n = 883）（n = 883） lungx（n = 73）。我们还提出了一个基于多级Voxel2mesh扩展到节段结节的端到端深度学习模型（同时保留尖峰），对尖峰进行分类（尖锐/尖峰和弯曲/叶状/叶状）并执行恶性预测。先前的方法已经对LIDC和LUNGX数据集进行了恶性预测，但没有对任何临床报道/可操作的特征（由于已知的超参数敏感性问题，具有一般归因方案）。随着这种全面宣布的Cirdataset和端到端深度学习基线的发布，我们希望恶性预测方法可以验证其解释，对我们的基线进行基准测试，并提供临床上的见解。数据集，代码，预处理模型和Docker容器可在https://github.com/nadeemlab/cir上找到。

translated by 谷歌翻译

SECLEDS: Sequence Clustering in Evolving Data Streams via Multiple Medoids and Medoid Voting

Azqa Nadeem , Sicco Verwer

分类：机器学习

2022-06-24

流媒体环境中的序列聚类非常具有挑战性，因为它在计算上很昂贵，并且序列可能会随着时间的推移而发展。 K-Medoids或围绕MEDOID（PAM）进行分区（PAM）通常用于聚类序列，因为它支持基于对齐的距离，而K-Centers为实际数据项有助于群集可解释性。但是，离线K-Medoids不支持概念漂移，同时对于聚类数据流的昂贵也很昂贵。因此，我们提出了Secrets，这是具有恒定内存足迹的K-Medoids算法的流式变体。 secleds具有两个独特的属性：i）每个群集使用多个MEDOIDS，产生稳定的高质量簇，ii）它使用直观的Medioid投票方案来处理概念漂移，以近似群集距离。与现有的自适应算法为新概念创建新簇的现有算法不同，secleds遵循一种根本不同的方法，在这种方法中，簇本身随着不断发展的流而发展。使用真实和合成数据集，我们从经验上证明，不管漂移，溪流大小，数据维度和簇的数量如何，secleds会产生高质量的簇。我们将三种流行的流和批处理聚类算法进行比较。最先进的Banditpam用作离线基准测试。 Secleds可以达到可比的F1分数与BanditPAM，同时将所需距离计算的数量减少83.7％。重要的是，当流含有漂移时，隔离的人的表现优于所有基准。我们还聚集了真正的网络流量，并提供证据表明，secleds可以在使用（昂贵的）动态时间翘曲距离的同时支持高达1.08 Gbps的网络带宽。

translated by 谷歌翻译

Robust Attack Graph Generation

Dennis Mouwen , Sicco Verwer , Azqa Nadeem

分类：机器学习

2022-06-15

我们提出了一种学习自动机模型的方法，该模型对输入修改更强大。它迭代地将序列与学习的模型对齐，将序列修改为其对齐版本，并重新学习模型。自动机学习算法通常非常擅长建模软件系统的频繁行为。我们的解决方案也可以用来学习以不经常序列中存在的行为，因为这些序列将与模型代表的频繁序列保持一致。我们将我们的方法应用于SAGE工具，以通过入侵警报对攻击者行为进行建模。在实验中，我们证明了我们的算法学习可以处理噪声（例如从序列中添加和删除符号）等噪声的模型。此外，它还学习了更适合培训数据的更简洁的模型。

translated by 谷歌翻译

CGC: Contrastive Graph Clustering for Community Detection and Tracking

Namyong Park , Ryan Rossi , Eunyee Koh , Iftikhar Ahamath Burhanuddin , Sungchul Kim , Fan Du , Nesreen Ahmed , Christos Faloutsos

分类：人工智能 | 机器学习

2022-04-05

给定实体及其在Web数据中的交互，可能在不同的时间发生，我们如何找到实体社区并跟踪其演变？在本文中，我们从图形群集的角度处理这项重要任务。最近，通过深层聚类方法，已经实现了各个领域的最新聚类性能。特别是，深图聚类（DGC）方法通过学习节点表示和群集分配在关节优化框架中成功扩展到图形结构的数据。尽管建模选择有所不同（例如，编码器架构），但现有的DGC方法主要基于自动编码器，并使用相同的群集目标和相对较小的适应性。同样，尽管许多现实世界图都是动态的，但以前的DGC方法仅被视为静态图。在这项工作中，我们开发了CGC，这是一个新颖的端到端图形聚类框架，其与现有方法的根本不同。 CGC在对比度图学习框架中学习节点嵌入和群集分配，在多级别方案中仔细选择了正面和负样本，以反映层次结构的社区结构和网络同质。此外，我们将CGC扩展到时间不断发展的数据，其中时间图以增量学习方式执行，并具有检测更改点的能力。对现实世界图的广泛评估表明，所提出的CGC始终优于现有方法。

translated by 谷歌翻译

Classifying Human Activities with Inertial Sensors: A Machine Learning Approach

Hamza Ali Imran , Saad Wazir , Usman Iftikhar , Usama Latif

分类：机器学习

2021-11-09

人类活动识别（Har）是一个正在进行的研究主题。它具有医疗支持，体育，健身，社交网络，人机界面，高级护理，娱乐，监控以及列表的应用。传统上，电脑视觉方法用于Har，它具有许多问题，例如保密或隐私，环境因素的影响，流动性，更高的运行成本，闭塞等。最近出现了使用传感器，尤其是惯性传感器的新趋势。使用传感器数据作为传统计算机视觉算法的替代方案存在若干优点。在文献中记录了计算机视觉算法的许多局限，包括利用传感器数据的深度神经网络（DNN）和机器学习（ML）方法的研究。我们使用智能手机的惯性传感器数据检查并分析了人类活动识别的不同机器学习和深度学习方法。为了确定哪种方法最适合此应用。

translated by 谷歌翻译